第一節：圖像識別的深度學習研究(1)

在深度學習領域，演算法只能算是引擎，而數據可以說是石油。沒有石油的加入，引擎是沒辦法體現它的性能的！

– 事實上我們從事後的角度來說，深度學習是一個需要數據量才能體現出的強大算法，假設我們一直沒有足夠的數據量，那深度學習將永無抬頭之日！

F8_5

即使到了現在，一個單純蒐集數據的研究案仍然不太可能取得計劃支持，但這項重要的工作總得有人做。史丹佛大學的李飛飛從2005年開始堅持下來努力做這件事情，並於2007年創辦ImageNet，他收集大量帶有標註信息的圖片數據供電腦視覺模型訓練，而每年將會利用其資料進行ILSVRC圖像識別競賽。

F8_6

他在2009年CVPR所釋出的資料可以說是這一波深度學習突破中最重要的基石！

F8_7

第一節：圖像識別的深度學習研究(2)

在李飛飛的努力下，從2010年開始舉辦ImageNet Large Scale Visual Recognition Challenge (ILSVRC)，這項比賽提供了巨量的數據以及一個客觀平台比較各種演算法在圖像識別任務中的表現。

– 下面這張圖是每一年的冠軍演算法，我們可以看到在2012年以前，這項比賽大多是由SVM、隨機森林等方法獲得冠軍，但自2012年以來卷積神經網路就席捲了ILSVRC之後所有的冠軍。

F8_8

上述這些經典模型在ImageNet上訓練的結果，我們很容易就可以在網路上找到，而mxnet也提供了Model zoo可供下載

第二節：利用經典模型的model進行預測(1)

我們從這裡可以下載一個已經打包好的Rstudio project，裡面的model資料夾內就存有2014年冠軍GoogleNet的進化版：Inception-BN Net。

– 除此之外，由於ImageNet上的比賽是對圖像做1000類別的分類，但我們並不清楚是哪1000個類別，model裡面的chinese synset.txt描述著第幾個類別是什麼的資訊。

有了這個東西後，我們就能隨便找張圖片進行測試，先讓我們把圖片顯示出來：

library(OpenImageR)

img = readImage('image/test.jpg') 
resized_img = resizeImage(img, 224, 224, method = 'bilinear')

imageShow(resized_img)

接著讓我們做圖像前處理，不要忘記圖像沒有經過標準化的過程網路會非常難訓練，所以這些模型都有經過圖像前處理：

norm_img = resized_img
norm_img = norm_img * 255
norm_img = norm_img - 128

dim(norm_img) = c(224, 224, 3, 1)

第二節：利用經典模型的model進行預測(2)

讓我們讀取模型進行預測吧：

library(mxnet)

inception_model = mx.model.load("model/Inception-BN", 126)

pred_prob  = predict(inception_model, norm_img)
which.max(pred_prob)

## [1] 3

模型認為這張圖是最有可能是第3個類別，讓我們把標籤讀取進來做比對，並顯示出前5個預測的結果：

synsets <- readLines('model/chinese synset.txt', encoding = 'UTF-8')

pred_prob <- as.numeric(pred_prob)
names(pred_prob) <- synsets
pred_prob <- sort(pred_prob, decreasing = TRUE)
pred_prob <- formatC(pred_prob, 4, format = 'f')

head(pred_prob, 5)

##             n01484850 大白鯊               n03045698 斗篷 
##                     "0.8162"                     "0.0591" 
##         n03916031 香水（瓶） n02071294 殺人鯨,逆戟鯨,虎鯨 
##                     "0.0125"                     "0.0091" 
##               n03388043 噴泉 
##                     "0.0080"

你覺得準嗎，上網隨便找張圖測試他的能力！

第三節：分享這個模型的預測功能(1)

接著我們請你打開剛剛下載的image_classification_app，你會發現裡面有3個檔案分別是ui.R、server.R及global.R：

– 其中global.R描述了模型及標籤檔案的位置，以及定義了前處理的函數

– ui.R負責定義使用者介面

– server.R中定義了程式對於使用者動作的相對應反應

你可能還需要額外安裝imager、shiny、jpeg等三個套件，安裝完成按下Run App你將能看到這個畫面：

F8_9

第三節：分享這個模型的預測功能(2)

隨便找張圖片上傳吧，但要注意的是因為程式沒有寫的非常好，所以只能上傳jpg檔案：

F8_10

第四節：訓練一個模型來預測自己的資料(1)

由於李飛飛公開了ImageNet並提供裡面的巨量資料供大家試驗他的Model，故網路上有非常多使用那些經典模型在ImageNet上的訓練結果，而上一節的部分我們也有看到，這些免費的模型同樣對於一般任務來說「非常的準」。但用這些模型很有趣卻對實際工作意義不大，假設你已經準備好了一堆資料，讓我們看看我們要怎樣訓練一個模型，並且把這個模型放到剛剛那個程式內！

– 我們有個想法，能不能使用這些經典模型的參數當作初始權重，並在這個基礎上訓練網路完成我們的任務目標。這個想法稱作轉移特徵學習(Transfer learning)，而這個想法是基於人類通常具有舉一反三的能力，舉例來說一個剛入學的醫學系學生他們僅有接受過高中程度的基礎訓練，並未接受過任何醫學專業領域的訓練，但他們的學習因為是基於高中的基礎之上，因此即使醫學專業相當艱深也能相當快的學會。

– 一般來說，有使用轉移特徵學習的概念先將網路在大資料上學習(主題可以與目標任務幾乎無關)，而後再到目標任務中訓練，其準確度會更好。

F8_39

至於為什麼這樣會成功?這主要是因為人們發現在深度神經網路較淺層的部分，通常只能辨認線條、區塊等基礎特徵，所以無論是用什麼資料訓練網路在前面的部分都是一樣的。而通常要回答一張圖片是什麼，這樣的功能主要是在網路的後端再進行分類，因此在一個比較理想的狀況之下，預先用大資料可以訓練網路較淺層的部分，而之後的小資料能夠協助網路調整後面幾層的權重。

第四節：訓練一個模型來預測自己的資料(2)

在MxNet裡面要做轉移特徵學習也非常簡單，我們可以用這個程式碼抓取倒數第二層的Layer，而抓到這個Layer後我們就能隨意的添加我們想要的結構。

– 舉例來說，我們可以定義我們要整個Inception-BN除了最後一個全連接層外的所有結構，只把最後一層的FC從分1000類轉變成分2類：

library(mxnet)

inception_model = mx.model.load("model/Inception-BN", 126)

all_layers = inception_model$symbol$get.internals()
flatten_pos = which(all_layers$outputs == 'flatten_output')
flatten_output = all_layers$get.output(flatten_pos)

fc1 <- mx.symbol.FullyConnected(data = flatten_output, num_hidden = 2, name = 'fc1')
softmax <- mx.symbol.SoftmaxOutput(data = fc1, name = 'softmax')

這樣就定義好了新的結構，至於你自己想做的任務是幾個類別就自行決定！

第四節：訓練一個模型來預測自己的資料(3)

這裡我們要把這個模型拿來做貓狗分類任務，我們需要用到第一節課教到的技能讀取貓狗資料(不要忘記前處理)：

Train_img = array(0, dim = c(224, 224, 3, 200))
Train.y = array(0, dim = c(2, 200))

for (i in 1:100) {
  
  # Cat
  img = readImage(paste0('Dogs vs. Cats/cat.', i, '.jpg'))
  resized_img = resizeImage(img, 224, 224, method = 'bilinear')
  Train_img[,,,2*i-1] = resized_img
  Train.y[1,2*i-1] = 1
  
  # Dog
  img = readImage(paste0('Dogs vs. Cats/dog.', i, '.jpg'))
  resized_img = resizeImage(img, 224, 224, method = 'bilinear')
  Train_img[,,,2*i] = resized_img
  Train.y[2,2*i] = 1
  
}

Train_img = Train_img * 255 - 128

第四節：訓練一個模型來預測自己的資料(4)

– 接著，我們在開始訓練之前需要取得模型權重參數，我們可以將最後一層以外的部分填入Inception-BN的參數，並以這為基礎開始訓練任務：

mx.set.seed(0)

new_arg = mxnet:::mx.model.init.params(symbol = softmax,
                                       input.shape = list(data = c(224, 224, 3, 20)),
                                       output.shape = NULL,
                                       initializer = mxnet:::mx.init.uniform(0.01),
                                       ctx = mx.cpu())

for (i in 1:length(new_arg$arg.params)) {
  pos = which(names(inception_model$arg.params) == names(new_arg$arg.params)[i])
  if (all.equal(dim(inception_model$arg.params[[pos]]), dim(new_arg$arg.params[[i]])) == TRUE) {
    new_arg$arg.params[[i]] = inception_model$arg.params[[pos]]
  }
}

for (i in 1:length(new_arg$aux.params)) {
  pos = which(names(inception_model$aux.params) == names(new_arg$aux.params)[i])
  if (all.equal(dim(inception_model$aux.params[[pos]]), dim(new_arg$aux.params[[i]])) == TRUE) {
    new_arg$aux.params[[i]] = inception_model$aux.params[[pos]]
  }
}

第四節：訓練一個模型來預測自己的資料(5)

可以開始訓練了，需要注意的是我們需要固定住前面全部的權重，只要訓練最後一層：

my.eval.metric.mlogloss <- mx.metric.custom(
  name = "m-logloss", 
  function(real, pred) {
    real1 = as.numeric(as.array(real))
    pred1 = as.numeric(as.array(pred))
    pred1[pred1 <= 1e-6] = 1e-6
    pred1[pred1 >= 1 - 1e-6] = 1 - 1e-6
    return(-mean(real1 * log(pred1), na.rm = TRUE))
  }
)

FIXED_NAMES = names(new_arg$arg.params)
FIXED_NAMES = FIXED_NAMES[1:276]
FIXED_NAMES = c(FIXED_NAMES, names(new_arg$aux.params))

mx.set.seed(0)

my_model = mx.model.FeedForward.create(symbol = softmax,
                                       X = Train_img, y = Train.y,
                                       optimizer = "sgd", learning.rate = 0.001, momentum = 0.9,
                                       array.batch.size = 10, num.round = 20,
                                       arg.params = new_arg$arg.params, aux.params = new_arg$aux.params,
                                       fixed.param = FIXED_NAMES,
                                       ctx = mx.cpu(),
                                       eval.metric = my.eval.metric.mlogloss)

要注意的是，由於在訓練過程中固定了前面的參數，所以沒有訓練到，我們需要把他們加回my_model內才能使用

my_model$arg.params = append(my_model$arg.params, new_arg$arg.params[1:276])
my_model$aux.params = new_arg$aux.params

第四節：訓練一個模型來預測自己的資料(6)

讓我們讀張新的圖看看這個模型準不準：

img = readImage('Dogs vs. Cats/test_cat.3.jpg')
resized_img = resizeImage(img, 224, 224, method = 'bilinear')

imageShow(resized_img)

看看模型的預測吧：

norm_img = resized_img
norm_img = norm_img * 255
norm_img = norm_img - 128

dim(norm_img) = c(224, 224, 3, 1)

pred_prob  = predict(my_model, norm_img)
pred_prob

##             [,1]
## [1,] 0.993675292
## [2,] 0.006324741

第四節：訓練一個模型來預測自己的資料(7)

再看看狗狗的預測結果吧：

img = readImage('Dogs vs. Cats/test_dog.3.jpg')
resized_img = resizeImage(img, 224, 224, method = 'bilinear')

imageShow(resized_img)

看看模型的預測吧：

norm_img = resized_img
norm_img = norm_img * 255
norm_img = norm_img - 128

dim(norm_img) = c(224, 224, 3, 1)

pred_prob  = predict(my_model, norm_img)
pred_prob

##           [,1]
## [1,] 0.4262857
## [2,] 0.5737143

換多點貓狗圖片試試看吧！

結語

訓練自己的深度學習模型好玩嗎?你要不要試著把剛剛的貓狗識別模型保留下來，並且把他放入剛剛那個App內，看看他是否work。

– 如果你想把自己訓練的模型放到剛剛的App內，還要記得改變chinese synset.txt檔案喔！

今天的課程主要教授大家如何簡單的做出圖片分類任務，但其中有非常多細節都沒有提到，事實上要成功訓練一個深度學習模型是很難的，各位如果有興趣的話可能還需要再更深入的學習！

– 另外，深度學習的潛力可不僅僅只有圖像辨識任務，其他包含物件識別、物件分割、圖像生成，甚至是語言模型，都是可以做出來的，這也值得有興趣的人再進一步學習！

人工智慧實務工作坊-手把手教你深度學習實務